LLaVA 简介:一种多模式 AI 模型

LLaVA是一个端到端训练的大型多模态模型,旨在根据视觉输入(图像)和文本指令理解和生成内容。它结合了视觉编码器和语言模型的功能来处理和响应多模态输入。图1:LLaVA工作原理的示例。_llava模型...